A new research framework is proposed to incorporate machine learning techniques into the field of experimental chemistry to facilitate chromatographic enantioseparation. A documentary dataset of chiral molecular retention times (CMRT dataset) in high-performance liquid chromatography is established to handle the challenge of data acquisition. Based on the CMRT dataset, a quantile geometry-enhanced graph neural network is proposed to learn the molecular structure-retention time relationship, which shows a satisfactory predictive ability for enantiomers. The domain knowledge of chromatography is incorporated into the machine learning model to achieve multi-column prediction, which paves the way for chromatographic enantioseparation prediction by calculating the separation probability. Experiments confirm that the proposed research framework works well in retention time prediction and chromatographic enantioseparation facilitation, which sheds light on the application of machine learning techniques to the experimental scene and improves the efficiency of experimenters to speed up scientific discovery.
translated by 谷歌翻译
数据驱动的PDE的发现最近取得了巨大进展,许多规范的PDE已成功地发现了概念验证。但是,在没有事先参考的情况下,确定最合适的PDE在实际应用方面仍然具有挑战性。在这项工作中,提出了物理信息的信息标准(PIC),以合成发现的PDE的简约和精度。所提出的PIC可在不同的物理场景中七个规范的PDE上获得最新的鲁棒性,并稀疏的数据,这证实了其处理困难情况的能力。该图片还用于从实际的物理场景中从微观模拟数据中发现未开采的宏观管理方程。结果表明,发现的宏观PDE精确且简约,并满足基础的对称性,从而有助于对物理过程的理解和模拟。 PIC的命题可以在发现更广泛的物理场景中发现未透视的管理方程式中PDE发现的实际应用。
translated by 谷歌翻译
基于图形卷积的方法已成功应用于同质图上的表示学习,其中具有相同标签或相似属性的节点往往相互连接。由于这些方法使用的图形卷积网络(GCN)的同义假设,它们不适合异质图,其中具有不同标记或不同属性的节点往往相邻。几种方法试图解决这个异质问题,但是它们没有改变GCN的基本聚合机制,因为它们依靠求和操作员来汇总邻近节点的信息,这隐含地遵守同质假设。在这里,我们介绍了一种新颖的聚合机制,并开发了基于随机步行聚集的图形神经网络(称为RAW-GNN)方法。提出的方法将随机步行策略与图神经网络集成在一起。新方法利用广度优先的随机步行搜索来捕获同质信息和深度优先搜索以收集异性信息。它用基于路径的社区取代了传统社区,并基于经常性神经网络引入了新的基于路径的聚合器。这些设计使RAW-GNN适用于同质图和异质图。广泛的实验结果表明,新方法在各种同质图和异质图上实现了最先进的性能。
translated by 谷歌翻译
基于可解释的机器学习,提出了一种名为InterOPT优化操作参数的算法,并通过优化页岩气体开发来证明。InterOpt由三个部分组成:神经网络用于构建矢量空间中实际钻孔和液压压裂过程的模拟器(即虚拟环境);可解释的机器学习中的Sharpley价值方法用于分析每个井中地质和操作参数的影响(即单个井功能影响分析);并进行集合随机最大似然(ENRML)以优化操作参数,以全面提高页岩气发展的效率并降低平均成本。在实验中,InterOPT根据其特定地质条件为每个井提供了不同的钻孔和破裂计划,并最终在104井的案例研究中获得了9.7%的平均成本降低9.7%。
translated by 谷歌翻译
大规模或高分辨率的地质模型通常包括大量的网格块,这可以用数值模拟器来计算努力解决和耗时。因此,从精细尺寸(高分辨率网格)到粗尺寸系统是有利的高度地质模型(例如,液压导电性)。已经证明了数值上升方法对于粗化地质模型有效和鲁棒,但它们的效率仍有待改善。在这项工作中,提出了一种基于深度学习的方法来高档细尺地质模型,可以有助于提高上升效率。在深度学习方法中,训练了深度卷积神经网络(CNN)以近似液压导电场和液压头之间的粗网之间的关系,然后可以利用来替换数值求解器,同时求解每个求解流量方程粗块。此外,物理法律(例如,控制方程式和周期性边界条件)也可以纳入深度CNN模型的训练过程,该模型被称为理论引导的卷积神经网络(TGCNN)。通过考虑的物理信息,可以大大减少对训练的数据量的依赖性。引入了几种地下流箱,以测试所提出的基于深度学习的升高方法的性能,包括2D和3D病例,同向同位素和各向异性案例。结果表明,深度学习方法可以为数值方法提供等效的升高精度,与数值上升相比,可以显着提高效率。
translated by 谷歌翻译
我们构建具有多个垂直产生井的动态3D地下单相流动问题的代理模型。替代模型在给定随机渗透性场,任意井位置和穿透长度以及作为输入的时间戳矩阵的任何时间,提供了整个形成的有效压力估计。然后可以基于Peaceman的公式确定井生产速率或底部孔压力。使用卷积编码器解码器神经网络架构将原始代理建模任务转换为图像到图像回归问题。以其离散形式的控制流程方程的残余纳入损失函数,以施加模型训练过程的理论指导。结果,与完全数据驱动的模型相比,培训的代理模型的准确性和泛化能力显着提高。它们也显示出具有不同统计数据的渗透性场具有灵活的外推能力。代理模型用于考虑随机渗透性场的不确定性量化,以及基于有限的井生产数据和地层性能观察数据推断未知的渗透信息。结果显示与传统的数值模拟工具有关,但计算效率大大提高。
translated by 谷歌翻译
虽然深受深度学习在各种科学和工程问题中,由于其强大的高维非线性映射能力,但它在科学知识发现中使用有限。在这项工作中,我们提出了一种基于深度学习的框架,以发现基于高分辨率微观模拟数据的粘性重力电流的宏观控制方程,而无需先前了解基础术语。对于具有不同粘度比的两个典型方案,基于深度学习的公式完全捕获与理论上派生的术语相同的主导术语,以描述验证所提出的框架的长期渐近行为。然后获得未知的宏观方程以描述用于描述短期行为,并且最终发现了额外的深度学习补偿项。后检测的比较表明,基于深度学习的PDE实际上比理论上衍生的PDE更好地在预测长期和短期制度中预测演化粘性重力电流。此外,拟议的框架被证明是对训练的非偏见数据噪声非常稳健,这高达20%。因此,所提出的深度学习框架表明,从原始实验或模拟导致数据空间中发现了在科学语义空间中发现了未经验证的内在法律的相当潜力。
translated by 谷歌翻译
Graph Neural Networks (GNNs) have been a prevailing technique for tackling various analysis tasks on graph data. A key premise for the remarkable performance of GNNs relies on complete and trustworthy initial graph descriptions (i.e., node features and graph structure), which is often not satisfied since real-world graphs are often incomplete due to various unavoidable factors. In particular, GNNs face greater challenges when both node features and graph structure are incomplete at the same time. The existing methods either focus on feature completion or structure completion. They usually rely on the matching relationship between features and structure, or employ joint learning of node representation and feature (or structure) completion in the hope of achieving mutual benefit. However, recent studies confirm that the mutual interference between features and structure leads to the degradation of GNN performance. When both features and structure are incomplete, the mismatch between features and structure caused by the missing randomness exacerbates the interference between the two, which may trigger incorrect completions that negatively affect node representation. To this end, in this paper we propose a general GNN framework based on teacher-student distillation to improve the performance of GNNs on incomplete graphs, namely T2-GNN. To avoid the interference between features and structure, we separately design feature-level and structure-level teacher models to provide targeted guidance for student model (base GNNs, such as GCN) through distillation. Then we design two personalized methods to obtain well-trained feature and structure teachers. To ensure that the knowledge of the teacher model is comprehensively and effectively distilled to the student model, we further propose a dual distillation mode to enable the student to acquire as much expert knowledge as possible.
translated by 谷歌翻译
这项工作解决了中央机器学习问题的问题,即在分布(OOD)测试集上的性能降解问题。这个问题在基于医学成像的诊断系统中尤为明显,该系统似乎是准确的,但在新医院/数据集中进行测试时失败。最近的研究表明,该系统可能会学习快捷方式和非相关功能,而不是可推广的功能,即所谓的良好功能。我们假设对抗性训练可以消除快捷方式功能,而显着性训练可以滤除非相关功能。两者都是OOD测试集的性能降解的滋扰功能。因此,我们为深度神经网络制定了一种新颖的模型培训方案,以学习分类和/或检测任务的良好功能,以确保在OOD测试集上的概括性性能。实验结果定性和定量证明了我们使用基准CXR图像数据集在分类任务上的基准CXR图像数据集的出色性能。
translated by 谷歌翻译
由于它们对处理图形结构数据的显着功率,图表卷积网络(GCNS)已广泛应用于各个领域。典型的GCN及其变体在同声源性假设下工作(即,具有相同类的节点容易彼此连接),同时忽略许多真实网络中存在的异源性(即,具有不同类别的节点倾向于形成边缘) 。现有方法通过主要聚集高阶邻域或梳理即时表示来处理异常的方法,这导致结果导致噪声和无关的信息。但这些方法没有改变在同性恋假设下工作的传播机制(这是GCN的基本部分)。这使得难以区分不同类别的节点的表示。为了解决这个问题,在本文中,我们设计了一种新的传播机制,可以根据节点对之间自动或异常改变传播和聚合过程。为了自适应地学习传播过程,我们在节点对之间引入两个奇妙程度的两个测量,这分别基于拓扑和属性信息来学习。然后,我们将学习的同音源于Graph卷积框架纳入图形卷积框架,该框架在端到端的架构中培训,使其能够超越奇妙的假设。更重要的是,我们理论上证明我们的模型可以根据他们的同意程度来限制节点之间的表示的相似性。 7个现实世界数据集的实验表明,这种新方法在异常或低意识下表现出最先进的方法,并在精梳性下获得竞争性能。
translated by 谷歌翻译